作者单位
摘要
1 东华大学 信息科学与技术学院,上海 201620
2 东华大学 数字化纺织服装技术教育部工程研究中心,上海 201620
为了增强无人车对夜间场景的理解能力,针对无人车在夜间获取的红外图像,提出了一种基于改进DeepLabv3+网络的无人车夜间红外图像语义分割算法。由于自动驾驶场景中的对象往往显示出非常大的尺度变化,该算法在DeepLabv3+网络的基础上,通过引入密集连接的空洞卷积空间金字塔模块,使网络生成的多尺度特征能覆盖更大的尺度范围。此外,该算法将编码器模块的多层结果拼接在译码器模块中,以恢复更多在降采样过程中丢失的空间信息和低级特征。通过端到端的学习和训练,可直接用于对夜间红外图像的语义分割。实验结果表明,该算法在红外数据集上的分割精度优于原DeepLabv3+算法,平均交并比达到80.42,具有良好的实时性和准确性。
深度学习 语义分割 无人车 红外图像 deep learning semantic segmentation unmanned vehicle infrared image 
应用光学
2020, 41(1): 180
李想 1,2,*孙韶媛 1,2刘训华 1,2顾立鹏 1,2
作者单位
摘要
1 东华大学信息科学与技术学院,上海 201620
2 东华大学数字化纺织服装技术教育部工程研究中心,上海 201620
为了提高夜间无人车驾驶的决策速度,减少夜间交通事故发生的概率,对无人驾驶场景预测任务进行了研究。提出了基于卷积长短时记忆的双通道编码夜间无人车场景预测网络,利用两个子网络:时间子网络提取红外视频序列的时序特征,空间子网络提取红外图像的空间特征,通过融合网络融合特征,输入到解码网络中,以实现对红外视频的未来帧预测。该网络具有端到端的优点,能够实现输入视频序列,直接输出预测帧的图像,并可以预测多帧图像。实验结果表明,该网络对夜间场景预测较准确,可以预测未来 1.2 s后的图像,预测速度快,为 0.02 s/帧,达到了实时性要求。
红外图像 场景预测 卷积长短时记忆 编码网络 infrared image, scene prediction, convolutional lo 
红外技术
2020, 42(8): 789
刘训华 1,2,*孙韶媛 1,2顾立鹏 1,2李想 1,2
作者单位
摘要
1 东华大学信息科学与技术学院, 上海 201620
2 东华大学数字化纺织服装技术教育部工程研究中心, 上海 201620
提出对图像和激光雷达点云数据进行3D目标检测的改进F-PointNet(Frustum PointNet)。首先利用图像的2D目标检测模型提取目标2D区域,并将其映射到点云数据中,得到该目标的点云候选区域,然后预测候选区域的3D目标掩模,最后利用掩模对3D目标进行检测。当预测掩模时,提出的宽阈值掩模处理可以用来减少原始网络的信息损失;增加注意力机制可以获取需要被关注的点和通道层;使用Focal Loss可以解决目标与背景不平衡的问题。通过多次对比实验,证明宽阈值掩模处理可以提高3D目标检测的准确率,同时注意力机制和Focal Loss可以提高预测的准确率。
机器视觉 激光雷达 点云数据 3D目标检测 宽阈值掩模处理 
激光与光电子学进展
2020, 57(20): 201508
作者单位
摘要
1 东华大学 信息科学与技术学院,上海 201620
2 东华大学 数字化纺织服装技术教育部工程研究中心,上海 201620
为了提高无人车在夜间情况下对周围环境的物体识别能力,提出一种基于多视角通道融合网络的无人车夜间三维目标检测方法。引入多传感器融合的思想,在红外图像的基础上加入激光雷达点云进行目标检测。通过对激光雷达点云进行编码变换成鸟瞰图形式和前视图形式,与红外图像组成多视角通道,各通道信息之间融合互补,从而提高夜间无人车对周围物体的识别能力。该网络将红外图像与激光雷达点云作为网络的输入,网络通过特征提取层、候选区域层和通道融合层准确地回归检测出目标的位置以及所属的类别。实验结果表明,该方法能够提高无人车在夜间的物体识别能力,在实验室的测试数据中准确率达到90%,速度0.43 s/帧,达到了实际应用要求。
红外图像 激光雷达点云 多视角通道 三维目标检测 infrared image lidar point cloud multi-view channel three-dimensional target detection 
应用光学
2020, 41(2): 296
裴嘉欣 1,2,*孙韶媛 1,2王宇岚 1,2李大威 1,2黄荣 1,2
作者单位
摘要
1 东华大学 信息科学与技术学院,上海 201620
2 东华大学 数字化纺织服装技术教育部工程研究中心,上海 201620
环境感知是无人车夜间行驶中的一项关键任务,提出一种改进的YOLOv3网络,以实现夜间对无人车获取的红外图像中行人、车辆的检测,将判断周边车辆的行驶方向问题转化为预测车辆位置的角度大小问题,并与深度估计信息进行融合对周边车辆行驶的距离和速度作出判断,从而实现夜间无人车对周边车辆行驶意图的感知。该网络具有端到端的优点,能实现整张图像作为网络的输入,直接在输出层回归检测目标的边界框位置、所属的类别和车辆的角度预测结果,并和深度估计信息融合得到周边车辆的距离和速度信息。实验结果表明,使用改进的YOLOv3网络对夜间无人车获取的红外图像进行目标检测的时间为0.04 s/帧,角度和速度预测效果较好,准确性和实时性达到了实际应用要求。
红外图像 目标检测 YOLOv3网络 角度预测 深度估计 infrared image target detection YOLOv3 network angle prediction depth estimation 
应用光学
2019, 40(3): 380
作者单位
摘要
1 东华大学 信息科学与技术学院, 上海 201620
2 东华大学 数字化纺织服装技术教育部工程研究中心, 上海 201620
针对红外视频人体行为识别问题, 提出了一种基于时空双流卷积神经网络的红外人体行为识别方法。通过将整个红外视频进行平均分段, 然后将每一段视频中随机抽取的红外图像和对应的光流图像输入空间卷积神经网络, 空间卷积神经网络通过融合光流信息可以有效地学习到红外图像中真正发生运动的空间信息, 再将每一小段的识别结果进行融合得到空间网络结果。同时将每一段视频中随机抽取的光流图像序列输入时间卷积神经网络, 融合每一小段的结果后得到时间网络结果。最后再将空间网络结果和时间网络结果进行加权求和, 从而得到最终的视频分类结果。实验中, 采用此方法对包含23种红外行为动作类别的红外视频数据集上的动作进行识别, 正确识别率为92.0%。结果表明, 该算法可以有效地对红外视频行为进行准确识别。
人体行为识别 卷积神经网络 信息融合 红外视频 视频分段 human action recognition convolutional neural network information fusion infrared video video segmentation 
应用光学
2018, 39(5): 743
作者单位
摘要
1 华东理工大学信息科学与工程学院, 上海 200237
2 东华大学信息科学与技术学院, 上海 201620
针对红外图像存在纹理信息不丰富和边缘信息较少导致深度估计精度难以提高的问题,本文设计一种深层神经网络估计红外图像的深度,该网络融合了一个二维(2D)残差神经网络和一个三维(3D)卷积神经网络。传统单幅红外图像的深度估计方法遗漏了帧间信息,容易出现物体轮廓模糊甚至丢失的情况。在2D和3D网络输入端分别加入稠密光流和前后帧图像。进一步将3D卷积网络提取的视频特征与2D残差网络的特征图做权值连接。不同于传统神经网络的全连接层,全卷积层突破了输入图片的尺寸限制。实验结果表明,本文提出的红外图像深度估计方法具有较高的精度,估计出的物体轮廓更清晰完整。
图像处理 红外图像 深度估计 光流信息 残差神经网络 卷积神经网络 
激光与光电子学进展
2018, 55(6): 061010
作者单位
摘要
1 东华大学信息科学与技术学院, 上海 201620
2 东华大学数字化纺织服装技术教育部工程研究中心, 上海 201620
在无人车夜视红外视频彩色化问题中, 考虑到可同时利用单帧图像的信息和视频的帧间信息, 提出了一种双通道循环生成对抗网络(DcCCAN)对夜视红外视频进行彩色化。DcCCAN是在循环一致生成对抗网络(CCAN)的基础上提出的双通道生成网络。双通道生成网络具有良好的图像特征提取能力, 能够自动提取视频中待处理图像的特征, 同时提取先前模型所生成图像的特征, 然后将特征信息整合后生成一幅目标图像。通过在生成对抗性训练中引入循环一致性训练机制, 可无监督地学习得到红外域图像到彩色域图像的映射关系, 从而实现红外视频的彩色化。实验表明该方法能够为视频中的红外图像赋予自然的色彩信息和纹理信息, 且满足实时性要求。
机器视觉 红外视频彩色化 双通道循环生成对抗网络 双通道生成网络 
激光与光电子学进展
2018, 55(9): 091505
作者单位
摘要
1 华东理工大学信息科学与工程学院,上海 200237
2 东华大学信息科学与技术学院,上海 201620
对车载红外图像进行深度估计,可应用于车辆的夜间辅助驾驶系统(Driver Assistant Systems,DAS),本文提出了一种新型的神经网络结构来估计红外图像的深度。受景物分类思想的启发,将传统深度估计方法中的回归问题转化为分类问题。首先,对红外图像进行归一化预处理,并将深度图置于自然对数空间对距离进行远近分类。其次,设计了一种新型的金字塔输入残差神经网络(PyramidResidual Neural Networks, PRN),将红外图像以金字塔型结构作为网络输入,网络结构分为粗略特征提取和精细特征提取两部分。最后,将全连接层改为全卷积层,大大减少了网络中的参数个数,降低计算复杂度。金字塔型结构的输入使得网络能够多尺度提取特征,这使得估计出的深度图场景中的对象轮廓比同一网络单一红外图像输入估计出的景物轮廓更清晰。此外,通过计算错误和准确性评价指标,证明本文的提出方法能够很好地估计红外图像的深度,对比实验验证了本文方法更具优势。
深度估计 车载红外图像 金字塔型输入 残差网络 多尺度特征 depth estimation vehicle infrared images pyramid input residual networks multi-scale features 
红外技术
2018, 40(5): 417
作者单位
摘要
1 华东理工大学信息科学与工程学院, 上海 200237
2 东华大学信息科学与技术学院, 上海 201620
考虑到红外视频的深度特征具有单帧图像的独特性和视频全局的连续性,在单目红外视频深度估计问题上提出一种基于双向递归卷积神经网络(BrCNN)的深度估计方法。BrCNN在卷积神经网络(CNN)能够提取单帧图像特征的基础之上引入循环神经网络(RNN)传递序列信息机制,使其既具有CNN良好的图像特征提取能力,能够自动提取视频中每一帧图像的局部特征,又具有RNN良好的序列特征提取能力,能够自动提取视频中每一帧图像所包含的序列信息,并向后递归传递这种信息。采用双向递归的视频序列信息传递机制来估计红外视频的深度,提取到的每一帧图像的特征都包含了视频前后文的序列信息。实验结果表明,相对于传统CNN提取单帧图像特征进行的估计,使用BrCNN能够提取更具有表达能力的特征,估计出更精确的深度。
机器视觉 双向递归卷积 深度估计 单目红外视频 深度神经网络 
光学学报
2017, 37(12): 1215003

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!